由于细微偏见,主观性和难以在规模上获得良好质量的数据集,尤其考虑到社会偏见和社会的不断变化本质,检测文本中的社会偏见是挑战。为了解决这些挑战,我们提出了一些基于指令的基于指令的方法,以提示预先接受预先接受的语言模型(LMS)。我们从最接近查询的小型支持存储库中选择一些标签平衡的示例,以便在嵌入空间中标记。然后,我们向LM提供由标记示例的此子集的指令,查询文本被分类,偏差定义,并提示它做出决定。我们证明了几次上下文中使用的大型LMS可以检测不同类型的细粒度偏差,具有与微调模型的相似且有时卓越的精度。我们观察到,与较小模型相比,最大的530B参数模型在检测社会偏差方面明显更有效(与其他模型相比,在AUC度量上实现至少20%)。它还在几张拍摄设置中保持高AUC(掉落小于5%),其中标记的存储库减少到100个样本的少量。因此,大型预制语言模型使得更容易且更快地建立新的偏置探测器。
translated by 谷歌翻译